Model Selection

Multilingual Visual Encoding

# Multilingual Visual Encoding

Siglip2 Large Patch16 384

SigLIP 2 is an improved multilingual vision-language encoder based on SigLIP, enhancing semantic understanding, localization, and dense feature extraction capabilities.

Vit Base Patch16 Siglip 256.webli I18n

ViT-B-16 vision Transformer model based on SigLIP, containing only the image encoder, utilizing raw attention pooling

Image Classification

Featured Recommended AI Models

AIbase

Empowering the Future, Your AI Solution Knowledge Base

English 简体中文繁體中文にほんご

© 2025AIbase